LLM 评估_草庐IT

LLM - Model Load_in_8bit For LLaMA

一.引言LLM量化是将大语言模型进行压缩和优化以减少其计算和存储需求的过程。博主在使用LLaMA-33B时尝试使用量化加载模型，用传统API参数控制量化失败，改用其他依赖尝试成功。这里先铺下结论:◆Load_in_8bit✔️◆Load_in_4bit❌二.LLaMA量化尝试1.Load_in_8bitByAPI❌model=LlamaForCausalLM.from_pretrained(args.base_model,config=config,torch_dtype=compute_type,low_cpu_mem_usage=True,load_in_8bit=True,device

威胁面面观：揭露基于LLM的聊天机器人设置和隐私策略

就在几个月前，ChatGPT和其他基于大型语言模型（LLM）的聊天机器人还很新奇。普通用户喜欢用它们以著名艺术家的风格创作诗歌和歌词；研究人员激烈讨论着要炸毁数据中心，以防止超级人工智能发动世界末日；而安全专家则成功绕过聊天机器人的安全控制机制，给它们发布窃听电话和劫车的指令。时至今日，许多人已经在工作中严重依赖ChatGPT，以至于每当服务宕机，用户就会在社交网络上抱怨“又要用脑了”。这项技术正变得司空见惯，但它无法跟上人们日益增长的需求，这导致人们经常抱怨称，“聊天机器人正逐渐变得越来越笨”。根据ChatGPT查询数据在GoogleTrends中的受欢迎程度，我们可以几乎肯定地得出结论：人

LeCun又双叒唱衰自回归LLM：GPT-4的推理能力非常有限，有两篇论文为证

「任何认为自动回归式LLM已经接近人类水平的AI，或者仅仅需要扩大规模就能达到人类水平的人，都必须读一读这个。AR-LLM的推理和规划能力非常有限，要解决这个问题，并不是把它们变大、用更多数据进行训练就能解决的。」一直以来，图灵奖得主YannLeCun就是LLM的「质疑者」，而自回归模型是GPT系列LLM模型所依赖的学习范式。他不止一次公开表达过对自回归和LLM的批评，并产出了不少金句，比如：「从现在起5年内，没有哪个头脑正常的人会使用自回归模型。」「自回归生成模型弱爆了！（Auto-RegressiveGenerativeModelssuck!）」「LLM对世界的理解非常肤浅。」让LeCun

LLM一句话瞬间生成3D世界，未公布代码已获141星！或将引发3D建模行业革命

继火爆全网的AI文生图，文生视频之后，文生3D场景的技术也来了！只要不到30个字的提示词，瞬间就能生成这样的3D场景。场景效果和文字的要求几乎分毫不差——「平静如玻璃的湖面，倒映出无云的天空，周围的山和水鸟的倒影呈现在湖中。」「烈日照耀在无垠的沙漠之上，倔强生长的植物投下了明显的阴影。大风把小沙丘雕刻成一片金色的土地。」而且针对生成的场景，还支持对不同的元素进行连续地修改和编辑！网友看到效果之后惊呼，「我一辈子就在等这一刻了！」研究团队计划在论文被接受后就在Github上公布项目的代码，但是在代码还未公布之时，这个项目就已经获得141颗星！这个项目是由澳国立、牛津和智源研究院的科研人员开发的「

评论能力强于GPT-4，上交开源13B评估大模型Auto-J

随着生成式人工智能技术的快速发展，确保大模型与人类价值（意图）对齐（Alignment）已经成为行业的重要挑战。虽然模型的对齐至关重要，但目前的评估方法往往存在局限性，这也让开发者往往困惑：大模型对齐程度如何？这不仅制约了对齐技术的进一步发展，也引发了公众对技术可靠性的担忧。为此，上海交通大学生成式人工智能实验室迅速响应，推出了一款全新的价值对齐评估工具：Auto-J，旨在为行业和公众提供更加透明、准确的模型价值对齐评估。论文地址：https://arxiv.org/abs/2310.05470项目地址：https://gair-nlp.github.io/auto-j/代码地址：https:

MIT惊人再证大语言模型是世界模型！LLM能分清真理和谎言，还能被人类洗脑

大语言模型是世界模型，又添新证据！前不久，MIT和东北大学的两位学者发现，在大语言模型内部有一个世界模型，能够理解空间和时间。最近他们又有了新发现，LLM还可以区分语句的真假！图片论文地址：https://arxiv.org/abs/2310.06824第0层时，「芝加哥在马达加斯加」和「北京在中国」这两句话还混在一起。随着层数越来越高，大模型可越来越清晰地区分出，前者为假，后者为真。图片作者MIT教授MaxTegmark表示，恕我直言，这个证据表明，LLM绝不仅仅是大家炒作的「随机鹦鹉」，它的确理解自己在说什么！图片网友再次对这项工作表示震惊——人类的LLM显微镜越来越强大了！现在都能用特征

LLM在text2sql上的应用

一、前言：目前，大模型的一个热门应用方向text2sql它可以帮助用户快速生成想要查询的SQL语句。那对于用户来说，大部分简单的sql都是正确的，但对于一些复杂逻辑来说，需要用户在产出SQL的基础上进行简单修改，Text2SQL应用主要还是帮助用户去解决开发时间，减少开发成本。TexttoSQL：简称Text2SQl，是将自然语言文本（Text）转换成结构化查询语言SQL的过程，属于自然语言处理-语义分析（SemanticParsing）领域中的子任务。它的目的可以简单概括为：“打破人与结构化数据之间的壁垒”，即普通用户可以通过自然语言描述完成复杂数据库的查询工作，得到想要的结果。二、背景应用

mysql - 在 MySQL 中评估表达式

我有一个包含a、b列的表，其中expr是来自其他列的表达式。例如表包含abexpr------------25a+b34a*b+3我喜欢简单地运行查询并获得流畅的结果:a|b|expr------------2|5|73|4|15我在文档中搜索函数、过程等，但我做不到。请帮助我! 最佳答案这是我为了乐趣而制作的解决方案。如果这不是一次性的事情，请考虑使用真正的编程语言来解决这个问题。droptableifexistsTable1;CREATETABLETable1(`a`int,`b`int,`expr`varchar(6));I

Meta普林斯顿提出LLM上下文终极解决方案！让模型化身自主智能体，自行读取上下文节点树

到底什么才是LLM长上下文模型的终极解决方案？最近由普林斯顿大学和MetaAI的研究者提出了一种解决方案，将LLM视为一个交互式智能体，让它决定如何通过迭代提示来读取文本。论文地址：https://arxiv.org/abs/2310.05029他们设计了一种名为MemWalker的系统，可以将长上下文处理成一个摘要节点树。收到查询时，模型可以检索这个节点树来寻找相关信息，并在收集到足够信息后做出回应。在长文本问答任务中，这个方法明显优于使用长上下文窗口、递归和检索的基线方法。LeCun也在推上转发对他们的研究表示了支持。MemWalker主要由两个部分构成：首先需要构建记忆树：对长文本进行切

638.【系统架构】架构评估的质量属性——可靠性

可靠性（Reliablility）是软件系统在应用或系统错误面前，在意外或错误使用的情况下维持软件系统的功能特性的基本能力。可靠性是最重要的软件特性，通常用来衡量在规定的条件和时间内，软件完成规定功能的能力。可靠性分为两个方面：容错：容错的目的是在错误发生时确保系统正确的行为，并进行内部“修复”。例如在一个分布式系统中失去了一个与远程构件的连接，接下来恢复了连接。健壮性：这里说的是保护应用程序不受错误使用和错误输入的影响，在发生意外错误事件时确保应用系统处于预先定义好的状态。值得注意的是，和容错相比健壮性并不是说在错误发生时软件可以继续运行，它只能保证软件按照某种已经定义好的方式中止执行。